5.4.1 Faktorvariabler
Faktorvariabler kan brukes til å automatisere omkoding av
flerkategorivariabler slik at de kan brukes i et regresjonsuttrykk. I
praksis vil hver kategori minus referansekategorien representeres ved
separate dummyvariabler, der en tolkningsmessig måler effekten av de
enkelte kategorier sammenliknet med referansekategorien. En bruker da
prefikset i.
foran variabelnavnet i det aktuelle regresjons-uttrykket. Den laveste verdien vil som standard benyttes som referanseverdi.
Faktorvariabler kan også brukes til å estimere effekten av kombinasjoner av verdier for utvalgte kategoriske variabler (i tillegg til effekten hver enkelt forklaringsvariabel har hver for seg). Rasjonalet bak er at enkelte egenskaper har ulik effekt på den avhengige variabelen når en ser på ulike grupper. F.eks. kan effekten av utdanning på fremtidig inntekt være systematisk forskjellig for menn versus kvinner. Om en har slike antakelser, kan faktorvariabler komme til nytte.
Man angir faktorvariabler og kombinasjoner av disse i regresjonsuttrykk
på følgende måte: Prefikset i.
brukes altså til å angi at en
variabel er kategorisk, mens symbolet #
brukes til å angi at alle
kategorier bortsett fra referansegruppene skal kombineres og estimeres
gjennom respektive koeffisientestimat. Ved bruk av ##
angir en at også hver enkelt kategori hver for seg skal estimeres og inngå i regresjonsanalysen.
Eksempel på lineær regresjonsanalyse med innt19 (yrkesinntekt i 2019) som den avhengige variabelen. De uavhengige variablene er mann, utdanningsnivå, og alle undergrupper av de to variablene kombinert med hverandre, bortsett fra referansegruppen:
regress innt19 i.mann i.utdanningsnivå utdanningsnivå#mann
Resultat:
Dette alternativet gir samme resultat:
regress innt19 utdanningsnivå##mann
Prefikset c.
kan benyttes til å signalisere at en variabel skal regnes som en kontinuerlig variabel (ikke-kategorisk). Dette kan være aktuelt å bruke i de tilfeller hvor en variabel kan tolkes som kontinuerlig, f.eks. utdanningsnivå eller alder. Følgende uttrykk kjører en liknende regresjon som over, men der utdanningsnivå anses som en kontinuerlig variabel:
regress innt19 i.mann c.utdanningsnivå utdanningsnivå#mann
Resultat: